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摘要 ”平方 公里 阵列 (Square Kilometre Array, SKA) 射 


国家 重点 研发 计划 (编号 : 2018YFA0404603)、 中 国 科 学 院 青 年 创新 促进 


吕 唯 佳 ， 


会 项 目 (编号 : 2021258) 和 国家 自然 科学 基金 (编号 : 12041301, 


电 望 远 镜 将 在 多 个 科学 方向 取得 革命 性 的 突破 , 而 SKA 软 


件 系统 是 影响 科学 产品 的 关键 因素 之 一 . SKA 区 域 中 心 是 天 文学 家 进行 SKA 数 据 分 析 、 科 学 研究 和 学 术 交 流 的 


像 管线 以 及 其 长 基线 干涉 测量 数据 处 理 管线 . 国内 外 用 户 已 经 基 
的 建设 和 运行 为 未 来 全 面 建设 中 国 SKA 区 域 中 心 提 供 了 守 


关键 词 ”平方 公里 阵列 , 区 域 中 心 , 软件 平台 , 科学 数据 处 到 


PACS: 95.55.Br, 07.05.Bx, 07.05.Hd, 95.85.Bh, 95.75.-z 


m 
eu 
Dil 


平方 公里 阵列 (Square Kilometre Array, SKA) 射 
电 望 远 镜 是 最 大 的 天 文 望远镜 , 将 为 人 类 探索 宇 
害 、 解 决 共同 关注 的 科学 问题 做 出 重大 贡献 叫 . 
2021 年 7 月 1 日 , SKA 第 一 阶段 (SKA1) 的 建设 正式 启动 ， 
预计 于 2029 年 底 建 成 并 投入 观测 叫 . SKA1 占 总 建设 规 
模 的 10% ©), 建成 后 , SKA1 全 规模 运行 每 年 将 向 科学 
用 户 提供 约 710 PB 的 科学 数据 约 . 面 对 如 此 史无前例 


F 


平台 . 处 理 SKA 科 学 数据 的 软件 环境 需要 具备 通用 性 、 灵 活性 和 高 适应 性 . 4 
中 心愿 型 机 , 部 署 了 被 大 型 超级 计算 机 广泛 使 用 的 作业 调度 系统 , 并 安装 了 能 够 处 理 当 前 主 
据 的 天 文 软件 , 还 部 署 了 多 个 科学 数据 处 理 管线 , 以 方便 不 同 科学 方向 的 观测 数据 的 自动 化 并 行 处 理 . 本 文 介绍 
了 中 国 SKA 区 域 中 心 原型 机 的 软件 平台 和 处 理 SKA 先 


科学 家 已 经 


建成 了 中 国 SKA 区 域 


流 射 电 望 远 镜 观测 数 


的 数据 量 , 无 论 是 天 文 领域 还 是 计算 机 领域 都 盏 


ENJE R, 包括 低频 连续 谱 成 像 管线 、 谱 线 成 
展 了 SKA 相 关 科学 研究 . 该 平台 


ES 


EE USURIS 


为 了 向 全 球 的 SKA 科 学 用 户 提供 高 质量 的 数据 产 
品 、 基 本 的 数据 处 型 


E 的 科学 服务 , SKATES 


主要 成 员 国 建立 若干 SKA 区 域 中 


心 (SKA Regional Centre, SRC) 器. 这 些 SRC 节 点 将 组 
成 SRC 网 络 (SRC Network, SRCNet), SRCNet 将 是 一 个 
平台 , 为 世界 各 地 的 天 文学 家 提供 天 文大 
与 分 析 、 建 模 和 可 视 化 等 服务 . SRC 白 皮 
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书 定义 了 SRCNet 的 六 大 基本 功能 : 数据 物流 、 基 本 通 
用 功能 、 数 据 处 理 、 数 据 归档 和 管理 、 可 扩展 的 资 
源 管理 和 分 配 以 及 用 户 支 持 外 . 其 中 , 数据 处 理 功 能 
是 提供 计算 与 存储 资源 和 相关 的 软件 服务 , 以 及 软件 
编程 和 执行 环境 , 同时 能 够 分 发 或 共享 科学 数据 到 各 
个 SRCNet 市 点 进行 交互 式 分析 . 

作为 SRCNet 节 点 之 一 , 中 国 SKA 团 队 于 2019 年 
完成 了 世界 首 台 原型 机 即 中国 SKA 区 域 中 心 原型 
机 (China SRC-Prototype, CSRC-P) Ul, 该 原型 机 具备 
天 文 数据 的 高 速 国际 网 络 传输 、 存 储 和 批 处 理 能 
力 . CSRC-P 实 际 上 是 一 台 功 能 齐全 的 小 型 超级 计算 


MPICH). 这 些 都 需要 具备 高 水 平 的 (High Performance 
Computing, HPC) 专 业 知 识 , 对 于 超级 计算 机 的 初学 者 
来 说 这 种 方式 较为 复杂 且 困难 . 另外 , 从 多 用 户 和 长 期 
运 维 的 角度 来 看 , 这 种 方式 还 存在 以 下 不 足 : 用 户 的 作 
业 和 计算 资源 不 能 统一 管理 , 导致 用 户 使 用 过 程 中 出 
现 资 源 竞 争 或 资源 浪费 ; 资源 的 运行 状态 不 能 实时 监 
Z, 导致 维护 困难 ; 可 扩展 性 差 , 资源 规模 扩大 后 仍然 
需要 对 多 节点 任务 重复 进行 一 系列 复杂 的 部 署 . 因此 ， 
根据 分 布 式 集群 或 超级 计算 机 模式 , 为 CSRC-P 配 备 作 
业 和 资源 管理 工具 是 非常 重要 和 必要 的 . 

对 于 科学 家 来 说 , 使 用 超级 计算 机 的 主要 目的 是 


WL, 部 署 了 超级 计算 机 所 需 的 软件 系统 , 如 作业 调度 
系统 、 文 件 系统 、 管 理 软件 等 . CSRC-P 同 时 部 署 了 
常见 的 射电 天 文 数据 处 理 软件 和 工具 (如 , 通用 天 文 
软件 应 用 程序 包 (Common Astronomy Software Appli- 
cations, CASA) P, R xc AG Ab FH AK Zi (Astronomical 
Image Processing System, AIPS) P145), 这 些 软件 在 各 
个 科学 方向 被 广泛 使 用 . 此 外 , 为 了 满足 不 同 科 学 
方向 的 差异 化 数据 和 SKA 大 数据 的 处 理 需 求 , SKA 
队 建 立 了 多 个 科学 数据 处 理 管线 , 能 够 支持 大 规模 
并 行 数 据 处 理 , 如 默 奇 森 宽 场 阵列 (Murchison Wide- 
field Array, MWA) 的 银河 系 和 银河 系 外 全 天 (GaLactic 
and Extragalactic All-sky MWA, GLEAM) 巡 天 数据 处 
HERDO, 还 开发 了 基于 人 工 智能 的 数据 处 理 软 


尽快 获得 实验 结果 . SKA LUI 和 SRC 的 超级 计算 机 采用 
的 是 异 构 超级 计算 模式 , 不 同 节 点 结构 的 多 个 集群 
通过 高 速 网 络 连接 0 92, 共同 运行 不 同 的 工作 负载 . 
SKA 有 很 多 科学 方向 下 和 0, 每 个 方向 都 有 不 同 的 资源 
类 型 和 资源 需求 , 因此 CSRC-P 采 用 了 混合 异 构 计算 架 
构 中 ,包括 : (1) 用 于 传统 HPC 任 务 的 23 节 点 x86 CPU 集 
HE; (2) 用 于 人 工 智 能 (Artificial Intelligence, AD 任务 
的 4 节点 GPU 集群 ; (3) 用 于 计算 密集 型 任务 的 10 节 
点 ARM CPU 集群 . 

超级 计算 机 作业 的 生命 周期 包括 排队 和 等 待 
时 间 、 计 算 资 源 分 配 、 作 业 初 始 化 、 使 用 分 配 的 
资源 执行 作业 、 结 果 保 存 和 资源 释放 . SKA 工 作 流 
程 经 常会 涉及 到 几 个 不 同 规 模 的 资源 分 配 , 调度 


fp 02-151, 例如 , 基于 深度 学 习 的 射电 星系 识别 与 分 类 
软件 (“ 河 图 ”, HeTu) Ul. 

后 面 的 章节 将 介绍 CSRC-P 的 作业 调度 系统 、 软 
件 平 台 和 数据 处 理 管线 , 并 介绍 几 个 科学 应 用 案例 . 


2 ”作业 调度 系统 


CSRC-P 的 登录 节点 承载 着 密集 的 访问 , 用 户 量 很 


器 根据 估计 的 响应 时 间 选 择 最 佳 资 源 分 配 . 在 这 
种 情况 下 , 资源 分 配 不 仅 在 规模 上 不 同 , 而 且 在 硬 
件 结构 上 也 不 同 , 从 而 使 调度 复杂 化 . 用 于 作业 和 
资源 管理 的 工具 被 称 为 作业 调度 系统 , 当前 主流 
的 作业 调度 系统 有 : Load Sharing Facility (LSF) PY, 
Sun Grid Engine (SGE) ?l, Simple Linux Utility for Re- 
source Management (SLURM) P?! fllOpen Portable Batch 
System (OpenPBS) 4), 它们 的 相关 情况 对 比分 析 见 


大 , 所 以 用 户 被 禁止 直接 在 登录 节点 上 运行 软件 程序 . 
用 户 的 程序 必须 在 具有 更 大 容量 和 更 多 资源 的 计算 节 
点 上 运行 . 在 没有 部 署 任何 资源 管理 工具 的 情况 下 , 计 
算 节点 对 用 户 来 说 是 一 个 黑 盒 子 . 对 于 单 节点 作业 或 
任务 , 当 没 有 安全 问题 且 只 有 一 个 用 户 时 , 可 以 直接 从 
登录 节点 访问 计算 节点 , 并 使 用 (Secure Shell, SSH)iz 
程 访 问 命令 运行 作业 ; 对 于 多 节点 作业 或 任务 , 需要 在 
节点 之 间 建 立 免 密码 登录 , 并 需要 部 署 一 个 消息 传递 
接口 (Message Passing Interface, MPD 环 境 ( 如 OpenMPL 


表 1 所 示 . 从 表 1 可 以 看 出 SLURM 在 各 方面 都 有 明显 的 
优势 , 而 且 是 最 具 扩 展 性 和 开放 性 的 开源 程序 . 新 发 
布 的 SLURM 版 本 具有 高 级 功能 , 如 回填 、 公 平 共 享 、 
抢占 、 多 优先 级 、 提 前 预约 等 , 这 些 都 是 许多 超级 计 
算 中 心 所 关心 的 . 它 不 仅 在 许多 Top500 的 超级 计算 机 
中 使 用 , 包括 中 国 的 国家 超级 计算 中 心 广 州 超 算 天 河 
二 号 , 而 且 还 广泛 用 于 SKA 先 导 望 远 镜 的 数据 中 心 , 如 
于 澳大利亚 平方 公里 阵列 探 路 者 (Australian Square 
Kilometre Array Pathfinder, ASKAP) 科 学 数据 存储 与 处 
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表 1 主流 作业 调度 系统 对 比 


Table 1 Comparison of mainstream job scheduling systems 


名 称 授权 许可 支持 平台 RATKA BR 

LSF 商用 Linux, Windows 6000+ 付费 

SGE 源 Linux, Windows 未 知 免费 
SLURM 源 Linux 120000+ ”免费 
OpenPBS 源 Linux, Windows 50000+ 免费 


里 的 Pawsey P5 超 级 计算 机 、 和 荷兰 低频 阵列 (Low Fre- 
quency Array, LOFAR) 射 电 望 远 镜 的 计算 机 集群 2 和 
FE 鲁 阵 列 射电 望远镜 (Meer Karoo Array Telescope, 
MeerKAT) 的 计算 机 集群 中等 . 

综合 上 述 考 虑 , CSRC-P 也 采用 SLURM 作 为 作业 
调度 系统 . CSRC-P 的 计算 节点 根据 计算 架构 被 分 为 三 
个 队列 : ARM 计 算 节 点 (arm)、X86 计 算 节点 (all-x86- 
cpu) 以 及 GPU 计 算 节 点 (all-gpu). 前 两 个 队列 主要 用 于 
串 行 、 多 线程 、 多 节点 和 分 布 式 作业 , 最 后 一 个 队列 
于 GPU 加 速 作 业 或 AI 模型 训练 和 测试 作业 . 目前 部 
署 的 SLURM 版 本 是 18.080, 它 支持 提交 和 管理 异 构 作 
业 , 以 满足 各 种 科学 数据 处 理 程序 或 软件 的 执行 要 求 . 
关于 作业 提交 的 方法 和 例子 , 参见 CSRC-P github 项 
H "Introductory-CSRC-P"2, 或 者 查看 SLURM 官 方 使 
FAI. 

为 了 进行 严格 统一 的 计算 资源 管理 , 计算 节点 
设计 了 可 插入 认证 模块 Pluggable Authentication Mod- 
ules, PAM) 访 问 控制 , 只 允许 普通 用 户 在 有 作业 运行 的 
情况 下 以 SSH 方 式 登 入 计算 节点 . 利用 SLURM, 用 户 
己 经 正常 开展 了 包括 串 行 、 多 线程 、 多 进程 、 分 布 式 
等 多 种 科学 数据 处 理 任务 , 表明 该 作业 调度 系统 能 够 
满足 天 文 数 据 处 理 模 式 要 求 . 此 外 , 还 在 SLURM 作 业 
调度 器 中 实现 了 作业 调度 的 灵活 性 和 对 异 质 作 业 的 文 
Tr. 评估 实验 显示 , 根据 不 同 队列 之 间 的 负载 不 平衡 程 
PE, 作业 的 响应 时 间 平 均 为 50 ms, 比 不 使 用 调度 器 的 
响应 时 间 改 善 了 30%. 
当然 , SLURM 仍 然 有 一 些 设 计 上 的 缺陷 . 例如 ， 


型 
aili 
a 


7 d 


— 


或 任务 的 数量 (使 用 m 和 每 个 节点 的 GPU 数量 (使 用 - 
gres-gpu:), 那么 这 实际 上 会 导致 同一 作业 的 不 同 运行 
分 配 不 同 的 GPU 总 量 (因为 分 配 的 GPU 总 量 取决 于 请 
求 CPU 核 心 所 分 配 的 节点 数量 ). 我 们 将 继续 跟踪 用 户 
作业 的 执行 情况 , 并 根据 不 同 队列 上 的 应 用 程序 的 性 
能 测量 来 改进 作业 调度 策略 . 例如 , 允许 用 户 将 时 间 和 
资源 列表 与 模块 列表 一 起 作为 一 个 sbatch 选 项 来 指定 . 
另外 , 也 将 探索 实施 一 个 响应 时 间 驱 动 的 策略 , 作为 优 
先 级 方案 的 替代 . 


3 软件 平台 


SRCNet 需 要 为 来 自 世 界 各 地 不 同 SKA 科 学 工作 
组 用 户 提 供 数 据 处 理 和 分 析 的 软件 平台 , 因此 CSRC- 
P 软 件 平台 需要 为 不 同 的 SKA 科 学 案例 提供 相应 的 软 
件 编程 和 执行 、 并 行 , 以 及 提供 更 加 灵活 的 容器 存储 
和 执行 环境 . 此 外 , 需要 为 每 个 科学 应 用 案例 部 署 数 
据 处 理 与 分 析 软 件 和 工具 , 并 为 每 个 科学 案例 开发 数 
据 处 理 管线 (或 工作 流 ) 和 基于 人 工 智能 的 数据 处 理 方 
ik. 目前 ,CSRC-P 软 件 平台 文 持 处 理 来 自 当代 重要 财 
电 望 远 镜 的 科学 数据 , 如 MWA, ASKAP LOFAR, Very 
Large Array (VLA) 和 Very Long Baseline Interferometry 
(VLBD. 对 于 不 同 的 科学 观测 , 软件 平台 可 以 支持 中 低 
频 连续 谱 观 测 、 偏 振 观 测 、 谱 线 观 测 、 脉 冲 星 计时 和 
搜索 等 观测 数据 的 处 理 . 对 于 大 规模 的 科学 数据 处 理 
任务 , 提供 了 各 种 MPI 并 行 和 GPU 环 境 , 支持 单 节点 /多 
节点 并 行 处 理 任 务 和 GPU 加 速 任务 以 及 人 工 智 能 任 
务 .平台 环境 既 支 持 本 地 化 软件 环境 , 也 支持 虚拟 软件 
环境 . 下 面 对 这 两 种 环境 进行 了 详细 介绍 . 


3.1 本 地 软件 环境 


本 地 软件 环境 主要 是 通过 在 本 地 系统 进行 编译 安 
装 获得 的 . 天 文 软件 包括 SKA 的 科学 应 用 软件 都 是 在 
不 断 发 展 和 迁 代 的 , 对 编程 工具 和 环境 的 版 本 会 有 不 
同 程度 的 依赖 性 为 了 满足 不 同 科学 用 户 的 软件 环境 


SLURM 虽 然 引 入 了 对 GPU 的 支持 , 但 是 它 的 调度 算 
法 并 没有 针对 GPU 进行 优化 : 在 SLURM 中 , 如 果 不 
指定 节点 的 数量 (使 用 -N 选 项 ), 而 只 指定 CPU 核心 


1) https://github.com/SchedMD/slurm. 
2) https://github.com/SHAO-SKA/Introductory-CSRC-P. 
3) https://slurm.schedmd.com. 


需求 , CSRC-P 安 装 了 不 同 版 本 的 编译 器 、 库 和 基础 软 
件 . 这 些 编译 器 或 软件 采用 了 在 不 同 的 编译 设置 下 得 
到 的 可 执行 程序 和 链接 库 , 使 用 这 些 编译 器 或 软件 时 ， 
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但 是 ， 


只 需要 对 环境 变量 进行 修改 , 尽 可 能 为 用 户 提 供 便 利 . 
于 在 软件 编译 过 程 中 调用 


线 和 电压 获取 系统 (Voltage Capture S 


了 大 量 的 第 三 方 库 


以 及 软件 之 间 存 在 的 依赖 关系 , 在 执行 特定 版 本 的 软 
件 时 , 环境 变量 的 修改 会 变 得 极其 复杂 . 


为 了 让 用 户 


能 够 快速 切换 不 同 版 本 的 编译 器 或 


软件 , 进而 开展 不 同 的 科学 数据 处 理 , CSRC-P 采 用 超 


算 通 用 的 环境 管理 工具 Environment Modules 23] 来 管 


里 和 维护 本 地 软件 环境 . 
的 avail load, unload, swarp 等 命令 , 进行 可 用 软件 的 查 
Ay Dak. CURA. Be 


j 户 可 以 利用 该 工具 提供 


的 使 用 方法 可 以 查 


看 该 工具 的 帮助 信息 或 者 官网 使 用 手册 . 


本 地 软件 环 


境 主要 分 为 三 部 分 : 编译 器 和 编程 


库 、 天 文 数据 处 理 软件 , 天 文 数据 分 析 工 具 软 件 , 分 别 


详 见 表 2-5. 


表 2 列 出 了 主要 的 编译 器 和 编程 库 
译 套件 gccP2、 跨 平台 安装 编 


J: GNU 编 
ET ACmake P, 2 


一 计算 设备 架构 (Compute Unified Device Architecture, 


CUDA) 工 具 包 CUDA Toolkit P!., Rustif zi J£ RV Ge 
里 器 Cargo 62、MPI 并 行 实现 库 OpenMPI 和 MPICH、 
Python 编程 环境 包 . CSRC-P 为 用 户 提 供 了 不 同 版 本 号 
的 编译 器 和 编程 库 , 并 根据 用 户 的 需求 持续 更 新 和 升 
级 . 大 多 数 天 文 数据 处 理 软件 均 可 以 
uv 安装 , 少数 并 行 加 速 软件 用 MPI 和 CUDA 进 行 编 
译 安装 , 极 少数 Rust 语 言 软件 需要 Cargo 进 行 编译 . 


行 


jgcc 和 Cmake 进 


CSRC-P 的 主要 天 文 数据 处 理 软件 包 见 表 3 和 4， 


这 些 软件 能 够 和 


MWA, ASKAP, L 


F 展 (Jansky Very Large Array, JVLA), 
OFAR, VLBI 等 重要 射电 望远镜 阵列 


的 数据 处 理 , 数据 类 型 包括 连续 谱 图 像 、 脉 冲 星 、 谱 


同 格式 的 数据 . 
和 程序 如 下 : 
(1) 主要 


ystem, VCS) 等 不 


这 些 天 文 数据 处 理 软件 包 的 主要 软件 


于 射电 频率 干扰 (Radio Frequency 


Interference, RFDE id 5 35 Jk BJ Ek fFAoflagger 71 Ail 


Cotter 34), 其 中 Aoflagger 既 可 以 用 于 


单口 径 射 电 望 远 


镜 , 也 可 以 用 于 射电 干涉 阵列 ; Cotter 是 基于 Aoflagger 


软件 . 


(2) 用 于 射电 数据 校准 的 软件 有 : 
Sagecal 51, Prefactor 69, 其 中 mwa-reduce 是 MWA 数 据 
的 校准 软件 , 目前 代码 未 开源 , 仅 供 MWA 团 队 成 


专 有 


开发 的 针对 MWA 数 据 格 式 的 专用 REFI 标 记 和 消减 


mwa-reduce, 


员 使 用 ; Sagecal 和 Prefactor 主 要 用 于 LOFAR 数 据 的 校 


准 , Sagecal 支 持 GPU 和 MPI 并 行 加 速 ， 
上 有 较 大 的 优势 . 


(3) 大 视 场 成 像 软件 , 比如 WSClean 87), 该 软件 集 
成 了 多 种 大 视 场 成 像 算法 、 去 卷 积 / 洁 化 算法 和 成 图 


因此 在 运行 速度 


技术 , 例如 w-stacking 871, w-snapshot Sl、 多 尺度 洁 
化 BI、 各 向 同性 非 抽 样 小 波 变换 (Isotropic Undeci- 


mated Wavelet Transform, IUWT)/ 4f Jg ^q] 401. 


Ue e PAR, 已 经 被 广泛 
处 理 . 


于 MWA 和 LOFAR 数 据 


图 像 


(4) 用 于 校准 与 成 像 的 其 他 软件 ( 包 ) 有 : 实时 系统 


(Real Time System, RTS)!?!, YandaS 


NS 


oft [3]、 facto 


和 Difmap ?, 其 中 , RTS 主 要 用 于 MWA 偏 振 和 再 


BE 


时 期 (Epoch of Reionization, EoR) 数 据 的 校准 与 成 像 ， 
支持 MPI 和 GPU 并 行 运行 ; YandaSoft 主 要 用 于 ASKAP 
数据 校准 ; factor 主 要 用 于 LOFAR 数 据 , 主要 是 解决 方 


表 2 CSRC-P 上 主要 的 编译 器 和 编程 库 
Table 2 Main compilers and programming libraries on CSRC-P 
名 称 功能 简介 主要 依赖 库 / 包 
gcc GNU 编 译 器 套件 , 目前 提供 版 本 : 4.9.3, 5.3.0, 7.3.0, 8.3.0 和 9.3.0. gmp, mpfr mpc, isl 
Cmake 一 个 跨 平台 的 安装 (编译 ) 工 具 , 可 以 用 简单 的 语句 来 描述 所 有 平台 的 安装 ( 编 ee 
译 过 程 ), 目前 提供 的 版 本 : 3.15.2 和 3.8.2. 
工具 包 , 提 语言 和 C++ 语 言 编译 器 、 驱动 以 及 相交 
CA CUDA 工 具 包 ， 提供 CUDA C 语 言 和 C++ 语言 编译 器 、CUDA 驱 动 以 及 相关 T 
工具 和 科学 库 . 目前 提供 8.0, 9.0, 10.0, 10.1, 11.1 版 本 . 
Cargo 是 Rust 的 构建 系统 和 包 管 理 器 , 用 于 构建 代码 、 下 载 依赖 库 并 编译 这 些 库 等 . gcc, git, curl, pkg-config, OpenSSL 
是 一 个 开源 的 MPI 实 现 库 , 能 够 结合 来 自 高 性 能 计算 社区 的 所 有 专业 知识 、 
OpenMPI SOMMA M d: S++ 
技术 和 资源 , 以 构建 可 用 的 最 佳 MPI 库 . 
MPICH 是 MPI 标 准 的 高 性 能 和 广泛 可 移植 的 实现 . gcc 
Python Python 编程 环境 平台 . 目前 提供 2.7, 3.6, 3.7 和 3.8 版 本 . gcc, openssl, zlib, libffi, tk 
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RI 天 文 数据 处 理 软件 - 


Table3 Softwares for astronomical data reduction-I 


ARK 功能 简介 主要 依赖 库 / 包 
于 干涉 仪 或 单口 径 射 电 望 远 镜 数据 的 射电 频率 干扰 标记 /消减 ,支持 的 干涉 . 
TRE casacore, fftw3, boost, libxml, 

Aoflagger 义 望远镜 包括 LOFAR, WSRT, VLA, GMRT, ATCA 和 MWA, 单口 径 望远镜 包 . E A 

$ . lapack, cfitsio, gtkmm (可 选 ), libpng 

舌 Parkes 和 Arecibo 305 m. 
Cotter MWA 专 用 射电 频率 干扰 消减 、 数 据 平 均 和 数据 格式 转换 软件 . erfa, libpal, AOFlagger, dysco 
mwa-reduce MWA 数 据 处 理 软 件 集 成 包 , 主要 用 于 MWA 数 据 标记 、 天 空 模型 建立 和 校准 等 . casacore, cfitsio, fftw3, gsl, boost, gsl 


MWA-Tools MWA 工 具 包 , 提供 MWA 观 测 数据 接口 、MWA tile beam 和 各 种 分 析 工 具 等 . 

WSClean 快速 大 视 场 成 像 软件 , 主 于 MWA, LOFAR 等 低频 干涉 阵列 数据 成 像 . 

Chgcentre 针对 Measurement Set 数 据 的 相位 中 心 修改 软件 . 

RIS MWA 实 时 系统 , 主要 用 于 MWA 偏 振 和 EoR 数 据 校准 和 成 像 , 支持 单 /多 CPU 节 
点 并 行 处 理 (MPD 和 GPU 加 速 处 理 . 

Miriad 射电 干涉 仪 数据 处 理 软件 包 , E 于 澳大利亚 致密 阵 (ATCA) 的 数据 处 理 . 

Re ASKAP 数 据 处 理 软件 , 该 软件 集成 了 RFI 消 减 、 校 准 、 自 校准 、 连 续 谱 成 像 、 
源 搜寻 、 谱 线 成 像 、 图 像 拼 接 等 方法 . 目前 提供 0.24.0, 1.0.19 和 1.0.2 版 本 . 

YandaSoft 射电 干涉 数据 校准 与 成 像 软件 , 主要 用 于 ASKAP 数 据 . 

tax 通用 天 文 软件 应 用 包 , 3E 于 ALMA 和 VLA 等 射电 数据 处 理 . 目前 提供 版 本 : 
4.5.3, 4.6.0, 4.7.2, 5.0.0, 6.1.0. 

DSPSR 脉冲 星 天文 时 间 序 列 的 数字 信号 处 理 软件 . 

PRESTO 脉冲 星 搜 寻 与 分 析 软 件 . 

PSRCHINE ni 和 了 村 分析 脉 冲 星 天 文 数据 的 开源 C++ 发 库 . 它 实 现 了 广泛 的 算法 , 用 于 
脉冲 星 计 时 、 闪 烁 研究 、 极 化 校准 、 单 脉冲 工作 、RFI 抑 制 等 . 

SIGPROC Pulsar 信 号 处 理 软件 . 

Tempo Pulsar timing 数 据 分 析 软 件 包 . 

Tempo2 Pulsar timing 软 件 包 . 

位 依赖 效应 (Direction Dependent Effects, DDEs) 的 影响 . 是 Casacore 是 SKA 数 据 
CSRC-P 已 经 部 署 的 通用 射电 天 文 数据 处 理 集成 ” 一 个 


和 Obit [43], 


软件 包 有 : ASKAPsoft146], CASA 51, Miriad 
ASKAPsoft 主 要 用 于 ASKAP 数 据 处 理 ， 


7E pk CR H 


配 HPC 环 境 , 该 软件 包 集 成 了 REFI 标 记 、 数 据 校准 、 
M 射电 源 搜 寻 等 算法 代码 , 还 提供 了 ASKAP 连 续 


普 线 成 像 管 CASA 是 阿 处 


全线 等 供用 户 使 用 . 


MANN 


毫米 波 / 亚 毫米 波 天 线 阵 (Atacama Large 
Millimeter/submillimeter Array, ALMA) 和 JVLA 的 主要 
数据 处 理 软件 , 也 可 用 于 其 


他 射 


47] ,AIPS [9] 


Biz Bi, 尤其 


成 EKE 


的 软件 


包 , 最 初 是 为 VLA 而 设计 的 , 它 固 
E 性 使 其 成 为 大 多 数 射 电 
线 阵列 (Very Long Baseline Array, VLBA) 和 欧 
洲 VLBI 网 (European VLBI Network, EVN) 的 标准 数据 


里 软 
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电 干 涉 测量 


线 数据 处 理 设计 的 ， 
列 (Australia Telescope Compact Array, ATCA) 使 用 的 射 
量 数 据 处 理 包 , 可 用 于 完成 连续 


于 支持 财 电 干涉 阵列 观测 数据 处 理 和 分 析 


Matploylib, pyephem, pyfits, 
pywes, cfitsio, AIPY, psycopg2, 
scipy, postgresgl-client 

casacore, cfitso, fftw3, boost, gsl 
casacore, cfitso, fftw3, boost, gsl 
mpich, cfitsio, fftw3, cblas, lapack, 
wcslib, hralpix, slalib, cuda 
linpack, pgplot, rpfits, wcslib 
Casacore, fftw3, cfitsio, LOFAR, 
mpich, boost, APLpy, apr, 
astropy, blas, gsl, healpix, Ice, 
lapack, log4cxx, matplotlib, pytz, 
pywcs, wcslib 

lofar-common, lofar=blob, 
askap-askap, askap-imagemath, 
askap-scimath, askap-parallel, 
askap-accessors, log4cxx, 


casacore, gsl, boost, mpich 


带 


psrdata, cfitsio, cuda 


fftw3, pgplot, tempo, glib, cfitsio 
pgplot, tempo2 


cfitsio, pgplot, zlib, fftw3 
pgplot, cfitsio, fftw3 
pgplot, cfitsio, fftw3 


校准 和 处 理 的 核心 库 . AIPS 是 


的 通用 
干涉 仪 特别 是 YLA、 美 国 


件 包 .Miriad 是 为 毫米 波 / 亚 毫米 波多 通道 谱 


它 是 澳大利亚 望远镜 致密 阵 


谱 和 谱 线 观 
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表 4 天 文 数据 处 理 软 件 -I 


Table 4 Softwares for astronomical data reduction-II 


名 称 功能 简介 依赖 库 / 包 
vestools MWA VCS 数 据 处 理工 具 . gcc, Cargo, pal, cfitsio, psrfits_utils, fttw3, 
xgpu, hyperbeam, cuda 
Bh Obit 是 一 组 用 于 处 理 射 电 天 文 数据 的 软件 包 , 特别 是 干涉 测量 和 单 cfitsio, glib, fftw, zlib, boost, gsl, plplot, 
径 OTEF 成 像 . python 
AIPS 天 文 图 像 处 理 系统 , E 于 VLA, MERLIN, GMRT, WSRT, ATCA4$ perl, libx11, libxext, libxpm, libncurses5, 
射电 干涉 仪 的 数据 处 理 , 同时 也 可 用 于 VLBI 的 数据 处 理 . libbsd, libedit 
Difmap 射电 干涉 仪 数据 成 图 软件 , 主 于 VLBI 数 据 . gcc, pgplot, X11 
T 一 个 快速 的 分 布 式 和 GPU 加 速 的 射电 天 文 数据 校准 软件 , 主要 Cmake, MPICH, gcc, casacore, wcslib, 
9 于 LOFAR 数 据 . cfitsio 
EE . DPPP, LoSoTo, LSMTool, EveryBeam, 
Prefactor 是 用 于 校正 LOFAR (High Band Array, HBA) 和 LOFAR (Low Band RMextract, Python, AOFlagger, WSClean 
见 测 bu t 器 和 电离 层 效应 的 管线 > , 88er : 
Array, LBA) 观 测 中 的 各 种 仪器 和 电离 层 效应 的 管线 . IDG 和 APLpy 
buds 是 用 于 LOFAR 数 据 方向 依赖 效应 (Direction-Dependent Effects, WSClean, DP3, LSMTool, LoSoTo, jinja2, 
DDEs) 校 准 和 生成 低 噪声 与 高 分 辨 紊 大 视 场 图 像 的 管线 工具 . Shapely, APLpy, pyds9 和 Dysco 
表 5 天 文 数据 分 析 软 件 或 工具 
Table 5 Softwares or tools for astronomical data analysis 
名 称 功能 简介 依赖 库 / 包 
westools 世界 坐标 系统 (WCS) 工 具 包 cfitsio, wcslib 
MWA 图 像 数 据 专 用 搜寻 软件 , 也 可 以 用 于 其 他 射电 图 像 进行 源 搜 "E 
Aegean (Python 包 ), 也 集成 了 背景 噪声 评估 工具 (BANE)、 多 分 辨 率 图 MEIN MM E 
ins Imfit 
像 拖 膜 工具 (MIMAS) 等 . 
Sextractor 主要 用 于 光学 图 像 的 源 搜寻 软件 . ATLAS, FFTw3 
Duchamp 三 维 天 文 数据 源 搜寻 软件 , E 于 射电 谱 线 数据 . pgplot, cfitsio, wcslib 
TOPCAT 星 表 分 析 工 具 . Java 
Dysco 射电 干涉 数据 压缩 软件 . casacore 
Swarp FITS 图 像 重 采样 和 拼接 软件 . cfitsio, wcslib 
Montage 天 文 图 像 拼 接 软 件 . cfitsio, wcslib, healpix 
SAOImageDS9 于 天 文 数据 的 图 像 显 示 和 可 视 化 工具 automake, autoconf, X11, zlib, tk, tcl, xml2, 
Xft, xslt 
Fe hk xh AL BLY = "m 
CARTA 天 文 立方 体 分 析 和 ERTA, 是 为 ALMA, YLA 和 SKA 探 路 者 设计 的 gcc, casacore, hdf5, blas, wcslib 
下 一 代 图 像 可 视 化 和 分 析 工 具 . 
测 数据 的 一 系列 的 处 理 流程 . Obit 是 一 组 用 于 干涉 测 HO, 集成 了 MWA 各 种 数据 分 析 工 具 . 剩余 的 是 
量 和 单口 径 射 电 望 远 镜 的 即时 (On The Fly, OTP) 成 像 于 脉冲 星 搜寻 与 计时 的 软件 , 这 些 软件 相对 独立 
的 软件 包 . 于 上 述 以 成 像 为 主 的 软件 包 , 常用 的 有 : DSPSR I, 
还 有 一 些 其 他 有 特定 用 途 的 软件 和 工具 包 , wm, PRESTO", PSRCHIVEP!, SIGPROC!™!, Tempo P1, 
WSClean 的 Chgcentre? 工 具 主 要 用 于 修改 Measurement Tempo2 上 5 和 vcstools P7, DSPSR 是 一 种 用 于 射电 脉 
Set 格 式 数据 的 相位 中 心 : MWA-Tools 是 MWA 观 测 数 ” 冲 星 的 高 性 能 、 开 源 、 面 向 对 象 的 数字 信号 处 理 软 件 


4) https://wsclean.readthedocs.io/en/latest/chgcentre.html. 
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库 和 应 用 程序 套件 . PRESTO 是 一 套 大 型 脉冲 星 搜索 
和 分 析 软 件 , 是 当前 脉冲 星 搜索 的 核心 工具 和 软件 , 该 
软件 主要 设计 目的 是 从 对 球状 星团 的 长 时 间 积 分 观测 
rp, 有 效 地 搜索 毫秒 脉冲 星 655, 目前 发 现 的 脉冲 星 大 
部 分 是 由 该 软件 处 理 与 分 析 得 到 的 . PSRCHIVE 是 一 
个 用 于 分 析 脉 冲 星 天 文 数 据 的 开源 C++ 开发 库 , 它 实 
现 了 广泛 的 算法 , 可 用 于 脉冲 星 计 时 、 闪 烁 研究 、 极 
化 校准 、 单 脉冲 工作 、RFI 抑制 等 . SIGPROC 是 一 个 
软件 包 , 骨 在 标准 化 多 种 类 型 的 快速 采样 脉冲 星 数据 
的 初始 分 析 . Tempo 和 Tempo2 是 用 于 脉冲 星 计 时 数据 
分 析 的 程序 . vcstools 主 要 用 于 MWA 脉 冲 星 的 VCS 数 
据 处 理 . 

如 表 5 所 示 , CSRC-P 已 经 配置 的 天 文 数据 分 析 
软件 或 工具 主要 有 : 世界 坐标 系统 (World Coordinate 
Systems, WCS) T. H &(WCSTools P?)), J 18 BE 
(Aegean [601, Sextractor ^, Duchamp !!, HeTu ^l), Æ 
表 分 析 工 具 (Tool for Operations on Catalogues And Ta- 
bles (TOPCAT)IGD)、 数 据 压缩 软件 Dyscok9)、 图 
像 拼接 软件 (Swarp ?!, Montage [K6)、 图 像 可 视 化 分 
Nr T H(SAOImageDS9 |, Cube Analysis and Render- 
ing Tool for Astronomy (CARTA) 69), $k}, Aegean, 
Sextractor 和 Duchamp 是 基于 分 量 拟 合 的 天 体 识别 软 
^. 源 搜寻 软件 Aegean 主 要 用 于 MWA 图 像 ，Sextrac- 
tor 主 要 用 于 光学 图 像 , Duchamp 主 要 用 于 ASKAP 三 
维 谱 线 图 像 ( 谱 线 图 像 数据 ), 而 HeTu ( 河 图 ) 是 使 用 
深度 学 习 开 发 的 、 基 于 射电 形态 的 天 体 识 别 和 
分 类 软件 . TOPCAT 是 一 个 用 于 表格 数据 的 交互 式 
图 形 查看 器 和 编辑 器 , 为 天 文学 家 提供 分 析 和 操 
作 星 表 和 其 他 表格 所 需 的 大 部 分 功能 , 支持 输入 
多 种 天 文中 常用 的 文件 格式 数据 (包括 Flexible Im- 
age Transport System (FITS), Virtual Observatory Table 
(VOTable) 和 Common Data Format (CDF)), 并 且 可 以 添 
加 更 多 格式 , 该 工具 尤其 擅长 交互 式 匹配 大 型 ( 数 百 
万 行 ) 表 格 . Dysco 主 要 用 于 压缩 Measurement Set x: fF 
格式 数据 . Swarp 和 Montage 均 可 以 进行 FITS 图 像 的 重 
组 与 拼接 . SAOImageDS9 和 CARTA 是 对 FITS 图 像 进行 
可 视 化 分 析 的 工具 软件 , SAOImageDS9 同 时 支持 命令 


为 了 让 用 户 能 够 在 不 同 的 处 理 器 上 使 用 ， 
有 软件 均 分 别 部 署 了 x86 和 ARM 版 本 . 


32 ”虚拟 环境 


为 了 解决 软件 编译 难 、 应 用 优化 难 、 软 件 环境 
移植 难 等 问题 , 通常 可 以 通过 搭建 虚拟 机 或 容器 等 虚 
拟 化 环境 来 解决 . 一 方面 , 虚拟 环境 下 软件 环境 相对 
干净 , 且 用 户 具 有 超级 用 户 root 权 限 , 软件 安装 部 署 不 
需 考虑 复杂 的 软件 版 本 和 库 的 依赖 关系 , 比 本 地 环境 
要 简单 . 另 一 方面 , 虚拟 机 或 容器 可 以 进行 打包 , 并 
能 够 快速 在 新 的 机 器 上 部 署 , 具有 即 插 即 用 的 效果 . 
由 于 容器 只 需要 一 个 虚拟 化 的 操作 系统 , 它 更 加 适用 
于 超级 计算 机 . 因此 , CSRC-P 所 有 计算 节点 均 部 署 了 
目前 主流 的 两 种 容器 环境 : Docker !°°! fülSingularity V. 
在 与 LURM 作 业 调 度 系统 的 结合 方面 , Docker 存 在 
以 下 缺陷 : 调度 管理 器 的 资源 限制 无 法 施加 到 容器 
中 ; 多 用 户 ( 非 roob 使 用 时 产生 的 结果 文件 会 存在 访问 
权限 问题 ; 在 运行 时 产生 了 更 多 非 必 要 的 资源 开销 . 
相 比 Docker Singularity Jit Æ 5¢ ##MPIFUISLURM, 能 够 
与 SLURM 无 颖 结合, 可 以 直接 使 用 SLURM 提 交 多 节 
点 作业 , 且 具 有 以 下 优势 : 环境 打包 迁徙 更 容易 , 没有 
复杂 的 缓存 机 制 , 占用 存储 空间 少 ; 没有 守护 进程 , 用 
户 在 容器 内 外 保持 一 致 , 且 不 占用 任务 资源 , 安全 性 
更 高 . 因此 , 推荐 用 户 在 CSRC-P 上 使 用 Singularity, 也 
会 对 使 用 Docker 的 用 户 进 行 技 术 支 持 . CSRC-P 目 前 
建立 了 MWA, ASKAP 和 LOFAR 数 据 处 理 软件 镜像 文 
件 , 供用 户 使 用 , 未 来 将 把 其 中 的 开源 软件 镜像 上 传 
至 DockerHub, 进行 长 期 管理 和 维护 . 此 外 , CSRC-P 的 
运 维 团 队 会 根据 用 户 的 需求 , 协助 用 户 编写 镜像 编译 
文件 和 部 署 镜像 文件 . 

考虑 到 CSRC-P 的 网 络 安全 , 计算 节点 通常 禁止 访 
问 外 网 . 登录 节点 虽然 能 够 访问 外 网 , 但 是 该 节点 拉 取 
的 镜像 的 本 地 存储 路 径 并 不 是 共享 的 , 用 户 实际 运行 
的 计算 节点 无 法 访问 . 为 了 确保 用 户 能 够 在 计算 节点 
上 使 用 公有 仓库 的 Docker 镜 像 , CSRC-P 提 出 了 一 种 解 
决 方 案 , 如 图 1 所 示 . 该 方案 的 思路 是 : 用 户 先 利用 登 


行 方式 和 提供 Python 接 口 包 . CARTA 支 持 远程 交互 式 
图 像 分 析 且 是 专门 为 新 一 代 射 电 望 远 镜 的 图 像 分 析 
进行 设计 的 , 在 高 维度 大 尺寸 图 像 数 据 分 析 有 一 定 的 
优势 . 


录 节 点 (x86 或 ARM) 的 网 络 , 从 Docker 公 有 仓库 上 拉 取 
容器 镜像 , 然后 将 该 镜像 打包 并 推送 到 本 地 私有 仓库 ， 
最 后 在 计算 节点 利用 节点 之 间 的 内 网 拉 取 该 容器 镜像 
到 计算 节点 的 存储 上 . 其 中 , 本 地 私有 仓库 主要 通过 配 
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Docker 


公有 仓库 


本 地 仓库 


图 1 计算 节点 上 Docker 镜 像 使 用 解决 方案 


Figure 1 Docker image usage solution on compute node. 


置 登录 节点 5000 端 口 并 创建 仓库 服务 获得 . 


4 数据 处 理 管 线 及 其 应 用 案例 


除了 软件 平台 , CSRC-P 还 为 科学 用 户 提供 基于 软 
件 平台 的 数据 处 理 管 线 , 这 些 管线 可 以 执行 自动 化 和 
并 行 化 的 数据 处 理 流 程 , 方便 用 户 使 用 , 并 已 在 实测 数 
据 上 得 到 验证 0157171. 科学 用 户 通过 一 系列 应 用 案 
例 的 实际 操作 , 能 够 快速 掌握 软件 的 使 用 方法 和 数据 


为 1151.5 MHz, 每 个 频率 通道 宽度 为 18.519 kHz, 总 
带宽 为 288 MHz, 中 心 频率 为 1295.4907 MHz. 

本 实验 使 用 ASKAPsoft 中 的 成 像 器 imager [3 进行 
成 像 , 该 成 像 器 可 以 在 分 布 式 集群 环境 中 运行 , 也 
可 以 在 独立 的 单机 系统 上 运行 , 数据 分 布 灵 活 且 
内 存 占用 少 . 因此 , 能 够 将 测试 数据 按照 频率 通道 
划分 , 进行 多 节点 分 布 式 处 理 , 从 而 提高 处 理 速率 . 
本 次 实验 使 用 了 CSRC-P 中 的 7 个 Intel x86 CPU T5 点 ， 
共 193 个 CPU 核 , 其 中 1 个 CPU 核 作为 主 进程 , 不 进行 实 
际 数据 处 理 , 所 以 每 个 CPU 核 将 处 理 15552/192=81 个 
频率 通道 (nchanpercore) 的 数据 . 整个 谱 线 成 像 共 消耗 
了 11.7 h, 最 终 输 出 了 一 个 大 小 为 15552 通 道 x2048 像 
素 x2048 像 素 的 立体 图 像 FITS 格 式 文件 . 

谱 线 成 像 主要 的 参数 设置 见 表 6. ASKAP 阵 列 
的 最 大 基线 长 度 (MaxUV) 为 6 km, 因此 MaxUV 设 置 
为 6000 m. 观测 角 分 辩 率 约 为 1/MaxUV=3.52x10-5 rad 
( 即 约 7.3 arcsec), 图 像 每 个 像素 大 小 Inage cellsize 通 常 
取 角 分 辩 率 的 四 分 之 一 , 本 实验 设置 cellsize 为 2 arc- 
sec. 观测 视 场 (FoV) 大 小 约 为 4/D=0.0176 rad 即 1°, 输 
出 图 像 大 小 约 为 FoV/Image cellsize=1800 像素 , 且 一 
股 为 2 的 正 N 次 窘 , 因此 Image shape 设 置 为 2048x2048， 
略 大 于 视 场 大 小 . 成像 算 法 选取 W-projection U9 771, 


> 


处 理 方 法 , 加 快 SKA 的 科学 产 出 . 下 面 以 3 个 典型 科学 
应 用 案例 为 例 , 介绍 CSRC-P 的 数据 处 理 管线 系统 . 


4.1 谱 线 数据 成 像 


SEF "P lE (HI) 21 cm 谱 线 的 科学 研究 占 了 中 
到 SKA 十 大 科学 方向 中 的 3 个 : 宇宙 再 电离 和 宇宙 黎明 
探测 、 中 性 氨 巡 天 和 宇宙 学 研究 、 中 性 氨 星 系 动力 学 
MERLU, 足见 其 重要 性 . 21 cm 谱 线 数据 的 主要 
处 理 流程 包括 : REFI 标 记 、 带 通 (Bandpass) 校 准 、 谱 线 
成 像 和 谱 线 源 查找 . 这 里 介绍 的 应 用 案例 是 谱 线 成 像 ， 
即 输入 的 数据 为 已 校准 的 数据 . 

测试 数据 来 自 ASKAP (36 个 12 m 碟 形 天 线 ) 的 
(Deep Investigation of Neutral Gas Origins, DINGO) Pi- 
lo X U*IrFFGAMA 12 天 区 的 观测 , 采用 其 中 编号 
为 0 号 的 合成 波束 的 观测 数据 , 观测 起 止 时 间 为 2019- 
3-12 14:03:22.1 至 2019-3-12 19:54:43.1, 共 观 测 21081 s, 
时 间 步 长 为 10 s， 观 测 的 相位 中 心 为 RA=177°3”, 
DEC=0"， 观 测 总 频率 通道 数 为 15552, 起 始 频率 


Ht 


此 数据 栅 格 化 gridder 设 为 Wprojetion，w 平 面 
数 mwpanes) 的 取 值 由 w 最 大 值 、 输 出 图 像 像 素 大 小 
和 观测 波长 决定 Wl 为 了 节省 内 存 ,w 平 面 数 的 取 值 不 
过 大 , 小 于 理论 值 也 能 获得 较 好 的 成 像 结果 , 因此 本 
实验 的 nwplanes 设 置 为 99. 

为 了 进行 结果 分 析 , 利用 软件 平台 中 的 Python 包 
astropyL9 编 写 程 序 将 输出 的 立方 体 图 像 分 离 
为 15552 个 二 维 图 像 FITS 格 式 文件 , 然后 使 用 Aegean 软 


表 6 谱 线 成 像 主要 参数 设置 


Table6 Main parameter settings of spectral line imaging 


参数 设置 
MaxUV 6000 m 


[2048, 2048] 
[2, 2] arcsec 
[11h50m60.000, —00.26.59.96] 


Images shape 
Images cellsize 


Image direction 


Images rest frequency HI 

nchanpercore 81 
gridder Wproject 

Wproject nwplanes 99 
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件 对 分 离 后 的 图 像 进行 源 查找 并 输出 每 个 图 像 的 源 


表 , 使 用 的 是 默认 参数 进行 源 查 找 . 通过 分 析 每 个 源 


表 , 获得 了 


目标 源 的 位 置信 息 和 峰值 流量 密度 , 峰值 


流量 密度 随 着 频率 的 变化 曲线 如 图 2 所 示 . 结合 同一 
组 数据 的 连续 谱 图 像 结果 和 图 2 的 分 析 知 , 在 第 8000 通 


道 之 后 为 目标 源 信号 , 之 前 的 频率 通道 中 均 为 RFI 信 
号 . 图 2(b) 在 1.42 GHz 位 置 附近 没有 明显 的 发 射 或 吸收 


线 出 现 . 该 测试 例子 只 是 为 了 证 明 谱 线 成 像 流程 已 


经 正确 部 署 ， 


科学 研究 意义 . 如 图 3 为 目标 源 信号 频段 中 , 第 10682 通 


得 到 的 数据 还 需 步 分 析 才 能 用 于 


进 


道 的 成 像 结 果 , 图 中 目标 源 图 像 的 均 方 根 Root Mean 


Square, RMS 


) 噪 声 与 ASKAP 相 同 宽度 的 单 频率 通道 


的 RMS 理 论 值 相 符 801, 进一步 证 明 采 | 


的 成 像 流 程 输 


出 的 结果 是 了 


yt 
CPU 核 ) 的 il 


, 分 别 使 


E 确 的 . 


不 同 数量 (19, 37, 73, 145 和 289 个 
展 性 实验 ( 注 每 次 


算 核 进行 了 可 拓 


实验 均 有 1 个 CPU 核 作为 主 进程 , 不 用 作 观 测 数据 


处 理 ), 消耗 


10.1 h， 如 图 


的 时 间 分 别 是 105.6, 47.1, 24.5, 13.651 
4 所 示 , 是 消耗 时 间 和 CPU 核 小 时 ((CPU 


(a) 200F 
175} 


m 

u 

o 
T 


1257 


100r 


u N 
eo Ui 
T T 


Flux density (Jy beam?) 


N 
w 
T 


0 


1150 1200 1250 1300 1350 1400 1450 


Frequency (MHz) 


Flux density (Jy beam!) 


300 1320 1340 1360 1380 1400 1420 1440 


Frequency (MHz) 


图 2 频率 -峰值 流量 密度 曲线 . (a) 所 有 频率 通道 的 结果 ; (b) 


第 8000 个 通道 后 的 结果 


Figure 2 Frequency-peak flux density. (a) The results of all frequency 
channels; (b) the results after the 8000th channel. 


core)-h) 随 CPU 核 数 增加 的 变化 曲线 . 从 图 


线 可 以 看 


4 的 消耗 时 间 
出 , 随 着 CPU 核 数 从 19 个 增加 到 145 个 , 在 
双 对 数 坐 标 系 下 , 消耗 时 间 随 着 核 数 增 力 


0 而 准 线性 减 


少 (线性 坐标 系 下 消耗 时 间 则 以 近似 索 律 形式 减少 )， 
表明 谱 线 成 像 的 并 行 过 程 具有 高 度 可 扩展 性 . 另外 ， 


从 图 4 的 CPU 核 小 时 


线 可 以 看 出 , 使 


] 的 CPU 核 数 


在 19-145 范 围 内 , 计算 效率 较 高 ; 当 CPU 核 数 为 37 时 ， 


计算 效率 最 高 . 这 种 可 扩展 性 实验 对 于 未 来 SKA 数 据 


—0°15' F 


Declination (deg) 


-1*00 L | 


e 
A 
o 


2 e 
w w 
o a 
1 


e 
N 
a 


Flux density (jy beam") 


178*15' 00' 


图 3 第 10682 频 率 通 道成 像 结果 . 


177°45' 30' 15' 
Right ascension (deg) 


标 源 的 


Es 


值 流 量 密度 


732.7 Jy beam"! , 图 像 的 RMS 噪 声 为 3.1 mJy beam! 
Figure 3 The imaging results of the 10682th frequency channel. The 


peak flux density of the target source is 2.7 Jy beam 


-1 


noise of the image is 3.1 mJy beam. 


=] 


, and the RMS 


Runtime (h) 


2500F 


(CPU core):h 


2000F 


Ls 
10 
Number of CPU cores 


图 4 谱 线 成 像 运 行 时 间 (a) 和 CPU 核 小 时 (b) 随 CPU 核 数 增 


加 的 变化 曲线 


Figure4 Variation curves of spectral line imaging runtime (a) and CPU 


core hour (b) with increased CPU cores used. 
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处 理 有 指导 意义 . SKARY 


普 线 数据 的 频率 通道 


数目 达 


到 65536 个 , 不 仅 是 ASKAP 的 通道 数目 的 4 倍 , 而 且 还 
要 求 精 细 通 道成 像 , 生成 的 谱 线 立方 体 图 像 FITS 文 件 


的 尺寸 非常 大 . 


因此 , 有 必要 使 


检验 “ 耗 时 - 


计算 核 * 关 系 的 


32k TE. 


j 更 多 的 计算 核 来 外 推 


上 述 可 拓展 性 实验 的 过 程 中 , 除了 耗 时 情况 , 还 


记录 了 所 有 CPU 核 在 整个 数据 处 理 过 程 中 占 
过 计算 , 得 到 了 每 个 CPU 核 平均 占用 的 
不 同 CPU 核 数量 , 每 
的 最 大 内 存量 基本 相等 . 按照 当前 
的 计算 节点 的 总 核 数 (32) 计 算 , 每 个 计算 节点 占 


大 内 存量 . £63 


最 大 内 存量 约 为 3.1 GB, 并 


个 CPU 核 平均 
使 


占 上 


fs] 


un 


的 最 大 内 存量 约 为 99.2 GB, 表明 在 当前 


配置 


常 处 aes 


个 计算 节点 将 外 


4] Ht FE ASKAPH 


| 的 最 


前 的 CPU 硬 件 


F, 至 少 需 要 配置 100 GB 的 内 存 ( 拓 
计算 节点 配置 的 内 存 为 768 GB), 才能 


ASKAP 谱 线 数据 . SKA KIH 


确 


需要 配置 更 大 容量 的 内 在. 


42 ”连续 谱 成 像 管线 


成 像 观 测 是 
以 外 的 几乎 所 有 利 
介绍 一 个 SKA 低 频 阵列 连 乡 
线 的 实例 , 3« OL JI 
展 SKA 科 学 研究 的 基础 数 志 
又 包括 : 标记 RFT.、 
深度 成 像 、 
修正 射电 源 位 置 和 流量 密度 ) 和 


校准 、 


展 实验 
果 谱 线 成 像 管 
普 线 巡 天 观测 的 
HIO AE, 在 相同 软件 算法 下 , 单 


每 个 


uk 


除 脉冲 星 和 和 暂 现 源 等 时 域 科 学 方向 


学 方向 都 需 


要 的 基 
走 谱 巡天 数据 处 理 
1 获得 的 图 像 和 星 表 等 结果 是 
E. 该 管线 的 主要 处理 


本 模式 .本 


Bim. 


转换 数据 格式 、 建 并 天 空 模型 、 


后 Made 准 


BAS 


步骤 介绍 见 文献 [10, 81]. 


进 
处 理 


步骤 .在 天 


备 的 射电 源 模型 制 
补 视 场 以 外 的 空 


步 完善 了 建立 天 空 模型 、 
空 模型 的 建立 方 本 


图 像 拼 接 , VES AD RE 
在 文献 [10] 的 基础 上 , 本 文 
BRE. Y 


起 的 误差 、 


条 度 成 像 和 后 


作 该 天 


的 校准 . 


在 校准 方面 
如 Centaurus A !8? 
型 (Full Embedded Element, FEE); 


), 使 用 更 加 准 


并 进行 自 校准 . 


在 深度 成 像 方面 ， 


方法 的 来 提高 延展 源 的 成 图 质量 . 


j, 使 用 J 
区 的 天 空 模型 能够 弥 
缺 区 域 , 优化 位 于 视 场 
i, 对 观测 数据 视 场 内 的 亮 源 ( 例 
确 和 完整 
进行 主 波束 改正 
使 用 了 多 尺度 洁 化 


更 加 完 


边缘 的 天 体 


的 主 波束 模 


83] 


HJ 


最 新 的 程序 (fits_warp ENHE 47 
这 些 改进 , 获得 的 最 终 成 图 质量 和 天 体 信息 


在 后 处 理 方 


"NP 
; 


EA 


5) https://github.com/johnsmorgan/marco. 


z UE. 


的 准确 度 


据 通 常 需要 处 理 


此 , CSRC 团 队 


实现 大 规模 低频 连续 谱 数 据 的 
署 在 CSRC-P 的 x86 CPU 节点 和 ARM CPU 节点 , 方便 用 
献 [10] 的 基础 上 本 文 对 并 


户 根 据 需 求 选择 使 用 . 


时 间 . 


1 于 连续 谱 巡 天 数据 量 大 , 对 每 个 数据 进行 顺序 
处 理 需 要 消耗 大 量 的 处 理 
天 为 例 , 共有 高 达 6080 个 快照 观测 数据 . 
2-3 h, 如 果 使 用 单机 不 间断 地 依次 处 
理 快照 数据 , 需要 700 多 天 才 


以 MWA 的 GLEAM 巡 
单个 快照 数 


能 完成 全 部 数据 处 理 . 为 


开发 了 多 节点 分 布 式 并 行 处 理 程序 


F, 以 


在 文 


自动 化 处 理 , 并 分 别 部 


行 et 了 改进 , 提高 


ay 了 处 到 


速度 和 可 拓展 能 力 . 在 本 


介绍 的 连续 谱 成 像 管 线 中 ， 


进 后 的 管线 ， 
算 节 点 , 处 理 完 


能 够 一 


快照 数据 ， 


度 , 平均 RMS 噪 声 约 为 8 mJy beam 
的 图 像 的 RMS 值 一 致 . 该 结果 图 像 数据 将 用 于 活动 星 


多 个 节点 同时 处 理 


IR EUR UE RU SER 
天 区 的 成 像 结 


7L. 
: 以 活动 星系 核 为 主 的 射 

天 最 亮 最 大 结构 的 射电 星系 Centaurus A, FRI Tf 
源 ( 用 于 超新星 遗迹 和 宇宙 磁场 研究 )、 


云 、 小 麦哲伦 星云 和 一 个 


图 


成 MWA GLEAM 
231 MHz iK Bt, 共 5 个 波段 ) 总 量 
仅 需 不 到 7 天 时 间 . 最 终 拼接 获 得 的 该 波 
段 全 天 区 总 强度 图 像 的 天 区 


每 个 节点 只 


N 处 理 1 个 快照 


多 个 不 同 的 数据 . 基于 改 
次 性 使 用 CSRC-P 的 所 有 CPU 计 


其 上 


1 个 波段 (200- 


量 约 67 TB 的 6000 多 个 


覆盖 范围 约 为 30939 平 方 


5 展 


明亮 的 星系 团 . 从 图 5 可 


1 与 文献 [81] 发 布 


示 了 其 中 几 个 代表 性 


大 麦哲伦 星 


看 出 , 无 论 是 致密 的 点 源 、 低 亮度 的 弥散 源 , 还 


亮度 的 大 尺度 延展 源 ， 
较 好 . 


使 用 Aegean 软 件 进行 身 
电源 (分 
外 星 表 &0 和 银 道 面 星 表 9， 


上 检测 到 327621 颗 射 


队 发 布 了 该 巡天 的 河 
河 外 星 表 包含 307455 颗 5] FB 


不 是 高 
得 到 的 图 像 质 量 


管线 


自动 处 理 


时 电源 搜寻 ， 


TAa Bü {EL VI 


=). 


MWA GLEAM} 


星 表 包含 22037 射 电 分 量 . 


中 的 Topcat 软 件 将 这 
的 GLEAM 星 表 文 件 ， 


源 或 分 量 , 银 道 面 


使 用 CSRC-P 软 件 平 台 
两 个 星 表 合并 ， 


获得 了 完整 


总 射 


昌 分 量 数目 
了 进行 对 比分 析 , 使 用 Topcat 的 Match Tables 功 能 


为 329492， 为 


,将 


本 文 200-231 MHz 波段 的 星 表 结果 与 合并 后 的 完 


整 GLEAM 星 表 进行 交叉 匹配 ， 匹配 的 最 大 偏差 范围 


设置 为 (100 arcsec), 
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5 200-231 MHz 波段 全 天 区 总 强度 图 像 中 代表 性 区 域 的 截图 结果 


Figure 5 The cutout result of the focal area in the total flux density image of the whole sky area on the 200-231 MHz band. 


分 辨 率 来 定 的 Ml 经 过 这 一 步 , 获得 了 交叉 匹配 的 结 ” 星 表 结果 与 公开 发 表 的 完整 星 表 中 匹配 的 射电 源 高 度 
A, 共 包含 261236 颗 射电 源 /分 量 , 与 公开 发 表 的 完整 ”一 致 . 

星 表 的 匹配 率 为 79.3%. 匹配 星 表 的 统计 分 析 见 图 6， 尚 有 20% 左 右 没有 匹配 的 射电 源 , 主要 是 由 于 本 
到 6(a) 为 匹配 结果 中 RA 之 差 (Ao) 的 柱状 图 , 图 6(b) 为 死 次 仅 处 理 了 1 个 波段 的 数据 , 有 相当 一 部 分 射电 源 是 陡 


配 结 DEC 之 差 (Ao) 的 柱状 图 , 两 个 图 可 以 看 出 大 W, 它们 在 较 低 频率 的 其 他 四 个 波段 被 探测 到 , 在 200- 
部 分 匹配 的 射电 源 / 分 量 的 RA 和 DEC 的 偏差 在 50 arc- ”231 MHz 波段 的 流量 密度 过 低 而 没有 被 探测 到 . 本 文 
sec (小 于 波束 的 1/2) 范 围 以 内 , RA 和 DEC 的 占 比 分 别 ”获得 的 星 表 中 多 出 的 部 分 , 主要 是 来 自己 公开 星 表 未 
为 : 96.5% 和 95.6%. 这 表明 CSRC-P 部 署 的 管线 获得 的 包含 的 天 空 区 域 . 以 上 结果 表明 , CSRC-P 的 MWA 低 频 
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图 6 交叉 匹配 结果 分 析 . (a) 匹配 结果 中 RA 之 差 (AQ) 的 柱状 图 


; (b) 匹配 结果 中 DEC 之 差 (A6) 的 柱状 图 


Qoo -5 0 50 100 
A6 (arcsec) 


Figure 6 Cross match result analysis. (a) A histogram of the difference of RA (Aa) in the matching result; (b) a histogram of the difference of DEC 


(A6) in the matching result. 


连续 谱 成 像 管 线 获 得 的 结果 是 可 靠 的 , 图 像 可 以 直接 
j 于 天 文 研究 . 


em 


43 VLBI 管线 


SKA1 以 核心 密集 阵 为 主 , 基线 长 度 为 65-100 km, 
类 似 于 JVLA 的 联 线 干涉 仪 ， 但 是 SKA 第 二 阶 
段 (SKA2) 将 是 一 个 既 包 括 核 心 密集 阵 又 有 延伸 
基线 的 扩展 阵列 , 最 长 基线 达到 3000-5000 km, 完 
整 SKA2 阵 列 的 工作 模式 类 似 于 VLBI 模 式 . 实际 上 ， 
SKA1 有 两 条 数据 链 路 , 一 条 送 到 SKA 的 相关 处 理 器 ， 
另 一 条 链 路 将 原始 数据 直接 送 到 VLBI 的 数据 处 理 
中 心 与 其 他 VLBI 望 远 镜 观测 的 数据 一 起 分 析 . 因此 ， 
VLBI 也 是 SRC 的 数据 处 理 模式 之 一 . 在 近期 的 SKA 学 
术 研 讨 会 上 9, 天 文学 家 重点 讨论 了 SRC 对 SKA- 
VLBI 的 支持 . 
相 比 于 JVLA 这 样 的 联 线 干 涉 仪 , YLBI 观 测 和 数 
据 处 理 的 复杂 度 较 高 , VLBI 数 据 一 直 有 处 理 时 间 长 、 
处 理 难 度 大 、 人 工 介 入 需求 多 等 特点 , 且 不 同 VLBI 网 
和 不 同 观测 项 目 对 于 数据 处 理 的 要 求 也 不 尽 相 同 , 因 
此 国际 上 基本 没有 统一 的 VLBI 数 据 处 理 管线 . 一 些 大 
型 巡天 项 目 组 往往 自主 开发 特定 管线 , 只 满足 团队 内 
项 目的 需求 . 对 于 独立 的 个 人 观测 项 目 , 需要 科学 用 户 
自行 处 理 , 而 由 于 VLBI 数 据 处 理 流程 的 复杂 性 , 用 户 
的 学 习 成 本 较 高 , 导致 掌握 VLBI 数 据 处 理 的 用 户 相对 


较 少 , 限制 了 VLBI 的 用 户 群 体 的 规模 . 

CSRC 团 队 考 虑 到 用 户 对 于 VLBI 数 据 处 理 有 需 
求 但 是 开发 VLBI 管 线 的 时 间 成 本 很 高 的 难题 , 基于 
队长 期 从 事 VLBI 观 测 研 究 的 丰富 经 验 , 开发 了 
一 套 VLBI 数 据 处 理 管线 , 能 够 满足 绝 大 多 数 VLBI 观 
测 模式 的 数据 处 理 .，CSRC-P 软 件 平台 的 建设 目 
标 也 包含 了 面向 SKA1-VLBI 和 SKA2 对 VLBI 管 线 的 
前 瞻 性 开发 需求 , 将 开发 出 适合 多 种 应 用 场景 且 
处 理 多 类 型 VLBI 数 据 的 管线 , 从 而 更 好 地 支持 科 
学 用 户 开展 VLBI 天 体 物 理 研究 . 目前 已 经 完成 传 
统 VLBI 数 据 处 理 管线 开发 , 所 涉及 数据 处 理 软件 已 
经 在 CSRC-P 软 件 平台 中 安装 , 主要 有 AIPS 和 Difmap. 
由 于 AIPS 所 用 编程 语言 为 Fortran, 且 依 赖 交 互 式 界 
面 , 不 利于 进行 大 规模 数据 批 处 理 , 因此 管线 主 
要 采用 AIPS 提 供 的 Python 接口 包 ParselTongue 1 进行 
基于 Python 语言 的 开发 ， 数据 处 理 的 流程 主要 参 
考 (National Radio Astronomy Observatory， NRAO) 发 布 
的 AIPS COOKBOOK”). 

VLBI 数 据 处 理 管线 的 基本 流程 如 下 : 

CD 数据 读 入 : 该 步骤 主要 利用 AIPS 命 令 ftld 读 取 
可 见 度 (Visibility) 数 据 . 

(2) 数据 检查 : 该 步骤 运行 了 一 系列 数据 检查 
的 AIPS 命 令 , 主要 包括 listr snplt 和 possm. 
(3) 电离 层 改 正和 地 球 自 转 参 数 (Earth Orientation 


iz 


6) 面向 SKA 时 代 的 VLBI 科 学 研讨 会 . https://whova.com/web/vlbis.2021 1 1/. 


7) http://www.aips.nrao.edu/cook.html. 
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Parameters, EOP) 改 正 : 首先 从 数据 中 提取 观测 当天 
的 日 期 信息 (Day of Year, DOY), 进而 通过 一 个 下 载 脚 
本 从 NASA 空 间 测 地 数据 中 心 2 下 载 观 测 对 应 当天 的 
卫星 测 地 数据 (电离 层 模型 以 及 地 球 定 向 参数 ), 并 通 
过 AIPS 命 令 tecor 和 clcor 将 改正 结果 应 用 到 校准 表 (CL 


table) 中 进行 迭代 . 


(4) 幅度 改正 : 利用 AIPS 命 令 apcal 来 进行 可 见 度 


数据 的 幅度 改正 ， 


并 应 用 台 站 的 天 气 信息 与 大 气 的 


不 透明 度 估算 , 之 后 将 改正 因子 利用 clcal 迭 代 到 校准 


KRP. 


(5) 星 位 角 改 了 
正 星 位 角 引 起 的 相位 误差 , 并 将 结果 迭代 到 校准 表 . 
(6) 手动 相位 校准 : 通过 手动 选取 条 纹 搜索 源 的 一 


E: 通过 AIPS 命 令 clcor 的 PANG 项 改 


段 观测 时 间 (Scan), 使 用 fring 程 序 进行 条 纹 拟 合 , 利用 
所 得 结果 来 改正 天 线 仪 器 的 相位 误差 , 并 利用 clcal 将 


2H RISE 


个 校准 表 中 . 


(7) 条 纹 拟 合 : 
源 在 所 有 观测 时 间 进 行 全 局 条 纹 拟 合 , 拟 合 采 


于 次 使 用 fring 程 序 , 对 所 有 的 校准 


的 解 


间隔 (Solinb 由 于 在 不 同 的 观测 频率 有 不 同 的 优选 值 ， 
忆 此 solint 可 以 手动 设置 . 


(8) 带 通 校准 : 


利用 AIPS 命 令 bpass 来 校准 不 同 中 


频 (F) 间 的 相位 (和 幅度 ) 跳 变 , 主要 运用 了 对 主 校准 
源 ( 亮 源 ) 的 互相 关 数 据 来 作为 校准 依据 . 结果 将 产生 
个 带 通 校准 表 (BP Table), 用 于 后 续 的 校准 和 数据 


(9) 结果 检查 : 在 上 述 校准 完成 后 , 将 通过 检查 命 
令 snplt possm 来 对 校准 后 的 相位 , 幅度 等 信息 进行 检 


查 , 若 校 准 结果 可 接受 则 可 进行 下 一 步 的 数据 导出 . 


(10) 数据 导出 : 该 步 利 用 AIPS 命 令 split 将 迭代 后 
的 校准 表 (CL 和 BP) 的 校准 信息 应 用 到 目标 源 中 , 并 导 
出 为 单 源 的 可 见 度 数据 , 用 于 进行 后 续 的 成 图 等 操作 . 
(11) 数据 成 图 : 将 校准 好 的 可 见 度 数据 导入 


到 Difmap 软 件 包 中 进行 自 校准 和 成 图 操作 . 
图 7 和 8 展示 的 是 利用 VLBI 管 线 对 最 近 的 一 次 
4.6 GHz VLBA 观 


立 趋 于 0° 附 近 , 幅度 的 范围 接近 源 的 真实 流量 密度 值 . 
图 8 展示 的 是 校准 源 (a) 和 目标 源 (b) 的 成 图 结果 图 像 ， 
其 中 校准 源 的 RMS 噪 声 约 为 0.16 mJy beam", 信 噪 比 
达到 2500, 目标 源 的 RMS 噪 声 为 39 uJy beam™!. 图 8: 
两 幅 图 像 的 梯度 图 的 最 外 圈 为 对 应 图 像 RMS 噪 声 值 
的 3 倍 , 对 于 校准 源 图 像 , 梯度 增 量 为 上 一 梯度 的 2 倍 ， 
对 于 目标 源 图 像 , 梯度 增 量 为 上 一 梯度 的 V2 倍 ， 从 
图 8 可 以 看 出 , VYLBI 可 见 度数 据 经 过 VLBI 管 线 校准 后 
的 图 像 结构 清晰 , 且 目 标 源 经 过 校准 后 的 RMS 噪 声 水 
平 不 超过 理论 噪声 值 的 2 倍 , 这 表明 数据 校准 结果 接近 
天 线 所 能 达到 灵敏 度 理论 值 ; 图 像 噪声 水 平和 信和 噪 比 
达到 理论 预期 , 表明 该 管线 可 以 提供 可 靠 的 科学 数据 
结果 . 该 VLBI 管 线 处 理 数据 的 另外 一 个 优势 是 结果 的 
可 重复 利用 性 , 便于 比照 检查 和 结果 复 现 , 这 得 益 于 该 
管线 的 脚本 化 和 极 少 的 人 工 干预 . 在 近 几 年 , 科学 用 户 
己 经 利用 该 管线 完成 了 多 项 VLBI 数 据 处 理 , 所 产 出 的 
成 果 已 发 表 在 天 文学 学 术 期 刊 中 9931. 


pa 
5 总 结 


本 文 介 绍 了 CSRC-P 的 作业 调度 系统 、 软 件 平 
台 和 射电 天 文 数据 处 理 管线 . 作业 调度 系统 采用 
了 SLURM 调 度 系 统 , 该 系统 被 各 大 超级 计算 机 广泛 
使 用 , 具有 良好 的 可 拓展 性 , 并 且 是 开源 的 , 易于 维 
护 . 在 软件 平台 的 设计 上 , 重视 通用 性 , 既 提 供 本 地 软 
件 环 境 也 提供 虚拟 化 环境 , 本 地 环境 使 用 Environment 
Modules 工 具 进 行 软件 环境 管理 , 用 户 能 够 利用 简单 的 
命令 快速 切换 不 同 科学 软件 环境 , 上 且 易 于 升级 与 维护 . 
虚拟 环境 支持 Docker 和 Singularity 容 器 镜像 环境 , 且 提 
供 已 编译 的 MWA, ASKAP 和 LOFAR 等 数据 处 理 软 件 


测 数 据 的 处 理 结 果 . 目标 源 


为 VIK2318, 是 


< 


etd 


颗 z=6.44 的 高 红 移 射电 类 星体 881, 采 
相位 参考 模式 观测 , 校准 源 是 类 星体 J2314-3138. 校 
全 前 后 相位 随 频 率 通 道 的 变化 见 图 7, 应 用 校准 后 , 相 


8) https://cddis.nasa.gov. 


镜像 方便 用 户 使 用 . CSRC-P 团 队 还 开展 了 数据 处 理 
方法 的 优化 和 自动 化 并 行 管线 的 开发 . 本 文 重点 介 
绍 了 已 构建 的 谱 线 成 像 管线 、 低 频 连 续 谱 成 像 管线 
和 VLBI 数 据 处 理 管线 , 并 用 实际 观测 数据 为 案例 做 了 
验证 实验 . 谱 线 成 像 管 线 还 进行 了 可 拓展 性 实验 , 为 规 
模 化 扩展 提供 技术 参考 . 实验 表明 构建 的 管线 均 能 够 
成 功 处 理 数 据 并 获得 可 靠 的 结果 . CSRC-P 已 经 具备 ] 
向 国内 外 科学 用 户 服务 的 能 力 , 并 且 正 在 产生 相关 的 
科学 成 果 . 
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图 7 管线 校准 完成 前 后 的 参考 源 J2314-3138 的 相位 -幅度 对 比 图 . 其 中 左边 两 图 为 校准 前 的 相位 -幅度 图 , 右边 两 图 为 校准 
后 的 相位 -幅度 图 . 数据 选取 观测 时 间 中 某 一 小 时 时 间 段 的 观测 进行 积分 , 以 4 号 天 线 (KP) 为 参考 天 线 . 下 面 两 图 为 单一 基 
线 (KP-PT) 右 旋 的 相位 -幅度 图 放大 后 的 结果 . 可 以 看 出 , 校准 后 数据 的 相位 随 channel 的 变化 趋 于 0 度 , 幅度 接近 源 的 真实 值 

Figure 7 The phase-amplitude comparison diagram of the reference source J2314-3138 before and after the pipeline calibration is completed. The 
two pictures on the left are the phase-amplitude diagrams before calibration, and the two pictures on the right are the phase-amplitude diagrams after 
calibration. The data is selected for an hour during the observation time the observations in the period are integrated, and antenna No. 4 (KP) is used as 
the reference antenna. The following two pictures are the amplified results of the right-handed phase-amplitude diagram of a single baseline (KP-PT). 
It can be seen that in the phase of the data after calibration the change with the channel tends to 0 degrees, and the amplitude is close to the true value 
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图 8 经 过 管线 校准 和 成 图 处 理 获得 的 校准 源 J2314-3138 和 目标 源 VIK2318 图 像 . (a) 校准 源 J2314-3138; (b) 目标 源 VIK2318 P^! 
Figure 8 The imaging results of the calibrator source J2314-3138 and target source VIK2318 obtained by the calibration and imaging of the VLBI 
pipeline. (a) The image of the calibrator source J2314-3138; (b) the image of the target source VIK2318 [96]. 
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The Square Kilometre Array (SKA) radio telescope is designed to revolutionize scientific breakthroughs in a variety of 
scientific fields, and the SKA software system is one of the key factors influencing scientific products. The software 
environment for processing SKA science data must be versatile, flexible, and adaptable. The SKA Regional Centre (SRC) 
serves as a platform for astronomers to analyze SKA data, conduct scientific research, and interact with other academics. To 
enable automated parallel processing of observational data from various scientific fields, Chinese scientists have developed 
the China SRC-prototype (CSRC-P), installed a job scheduling system widely used by large supercomputers, installed 
an astronomical software platform capable of processing observational data from current leading radio telescopes, and 
deployed multiple scientific data processing pipelines. This paper describes the software platform of the CSRC-P as well 
as pipelines for processing SKA precursor telescope data, such as the low-frequency continuum imaging pipeline, spectral 
line imaging pipeline, and very long baseline interferometry data processing pipeline. Users worldwide have successfully 
conducted scientific research on SKA using this platform. The knowledge gained from the construction and operation of 
this platform will be useful in constructing a full-scale SRC in the future. 


Square Kilometre Array, reginal centre, software platform, scientific data processing pipeline 
PACS: 95.55.Br, 07.05.Bx, 07.05.Hd, 95.85.Bh, 95.75.-z 
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